Model Selection

Multilingual Speech Recognition

# Multilingual Speech Recognition

Whisper is a pre-trained automatic speech recognition (ASR) and speech translation model, trained on 680,000 hours of annotated data with strong generalization capabilities.

Speech Recognition Supports Multiple Languages

Whisper Large V3 Turbo

Whisper is OpenAI's state-of-the-art automatic speech recognition (ASR) and speech translation model, trained on over 5 million hours of labeled data with strong zero-shot generalization capabilities. The Turbo version is a pruned and fine-tuned variant of the original, reducing decoder layers from 32 to 4, significantly improving speed with a slight quality trade-off.

Speech Recognition

Transformers Supports Multiple Languages

Whisper Large V3

Whisper is OpenAI's state-of-the-art automatic speech recognition (ASR) and speech translation model, supporting multiple languages

Speech Recognition

Safetensors Supports Multiple Languages

Quantum_STT is an advanced automatic speech recognition (ASR) and speech translation model, trained with large-scale weak supervision, supporting multiple languages and tasks.

Speech Recognition

Transformers Supports Multiple Languages

Whisper Large V3 Turbo Gguf

Whisper large-v3-turbo is a pruned and fine-tuned version based on Whisper large-v3, with the decoder layers reduced from 32 to 4, significantly improving speed while slightly reducing quality.

Speech Recognition Supports Multiple Languages

Canary 180m Flash

NVIDIA NeMo Canary Flash is a multilingual multitask speech model supporting automatic speech recognition and translation tasks in English, German, French, and Spanish.

Speech Recognition Supports Multiple Languages

Whisper Large V3.w4a16

This is the quantized version of openai/whisper-large-v3, employing INT4 weight quantization and FP16 activation quantization, suitable for vLLM inference.

Speech Recognition

Transformers English

OWLS is a suite of Whisper-style models designed to help researchers understand the scaling properties of speech models, supporting multilingual speech recognition and translation.

Speech Recognition Other

Whisper Large V3 Distil Multi4 V0.2

This is a multilingual distilled version of the Whisper model with 2 decoder layers, supporting 4 European languages: English, French, Spanish, and German.

Speech Recognition

Transformers Supports Multiple Languages

Voice Clone Large Finetune Final

This model is a voice cloning model fine-tuned based on openai/whisper-large-v3, primarily used for speech recognition tasks, achieving a word error rate of 15.3572 on the evaluation set.

Speech Recognition

Faster Whisper Large V3 Turbo Ct2

This is a version of the Whisper large-v3 turbo model converted to the CTranslate2 format for efficient automatic speech recognition tasks.

Speech Recognition Supports Multiple Languages

Whisper Large V3 Turbo

Whisper is a state-of-the-art automatic speech recognition (ASR) and speech translation model developed by OpenAI, trained on over 5 million hours of labeled data, demonstrating strong generalization capabilities in zero-shot settings.

Speech Recognition

Transformers Supports Multiple Languages

Whisper Large V3 Gguf

Whisper is a multilingual automatic speech recognition (ASR) system that supports speech-to-text tasks in multiple languages.

Speech Recognition Supports Multiple Languages

Faster Whisper Large V3 Ja

Japanese-optimized version based on OpenAI Whisper large-v3, supporting multilingual speech recognition

Speech Recognition Supports Multiple Languages

MMS-1B-FL102 is part of Facebook's Massively Multilingual Speech project, an automatic speech recognition model supporting 102 languages, based on the 1-billion-parameter Wav2Vec2 architecture, achieving multilingual transcription through adapter technology.

Speech Recognition

Transformers Supports Multiple Languages

Part of Facebook's Massively Multilingual Speech project, supporting automatic speech recognition for 1162 languages

Speech Recognition

Transformers Supports Multiple Languages

Faster Whisper Small

Transformer-based automatic speech recognition (ASR) model supporting multilingual transcription

Speech Recognition Supports Multiple Languages

Whisper is a pre-trained automatic speech recognition (ASR) and speech translation model, trained on 680k hours of labeled data with strong generalization capabilities.

Speech Recognition Supports Multiple Languages

Whisper Tiny is an automatic speech recognition (ASR) model developed by OpenAI, the smallest version in the Whisper series with 39M parameters.

Speech Recognition Supports Multiple Languages

A large-scale multilingual speech recognition model introduced by Meta AI, supporting 60 languages, based on a 1-billion-parameter Transformer encoder architecture.

Speech Recognition

Transformers English

A large-scale multilingual speech recognition model introduced by Meta AI, featuring 1 billion parameters and supporting character-level transcription for 60 languages

Speech Recognition

Transformers English

Xtreme S Xlsr Minds14

This model is a speech processing model fine-tuned from facebook/wav2vec2-xls-r-300m, achieving high F1 scores and accuracy on the evaluation dataset.

Speech Recognition

Wav2vec2large Xlsr Akan

This is a universal voice model supporting speech recognition and audio processing tasks.

Speech Recognition Other

Xlrs 53 Finnish

XLSR-Wav2Vec2 is a multilingual speech recognition model that learns shared speech representations through cross-lingual pretraining, supporting 53 languages.

Speech Recognition Other

Wav2vec2 Xlsr Multilingual 56

This is a multilingual automatic speech recognition (ASR) model supporting 56 languages, fine-tuned from facebook/wav2vec2-large-xlsr-53 on the Common Voice dataset.

Speech Recognition

Transformers Supports Multiple Languages

Lang Id Commonlanguage Ecapa

A speech language recognition model using the ECAPA-TDNN architecture, supporting recognition of 45 languages

Audio Classification Supports Multiple Languages

Lang Id Voxlingua107 Ecapa

A speech language identification model based on the SpeechBrain framework and ECAPA-TDNN architecture, supporting recognition and speech embedding extraction for 107 languages.

Audio Classification Supports Multiple Languages

Wav2vec2 Large Xlsr Hindi Marathi

Fine-tuned based on Facebook's wav2vec2-large-xlsr-53 model, supporting automatic speech recognition tasks for Hindi and Marathi

Speech Recognition

Transformers Other

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase